大规模的语音自我监督学习(SSL)已经出现到语音处理的主要领域,但是,由于其巨大规模而引起的计算成本问题是对学术界的高障碍。此外,语音SSL模型的现有蒸馏技术通过减少层来压缩模型,从而在语言模式识别任务(例如音素识别(PR))中引起性能降解。在本文中,我们提出了Fithubert,它几乎在几乎所有模型组件中都使尺寸较薄,并且与先前的语音SSL蒸馏作品相比,层层更深。此外,我们采用缩短时间来加快推理时间,并提出一种基于提示的蒸馏方法,以减少性能降解。与休伯特相比,我们的方法将模型降低到23.8%,推理时间为35.9%。此外,我们在优越的基准上达到了12.1%的单词错误率和13.3%的音素错误率,这比先前的工作优越。
translated by 谷歌翻译
When training early-stage deep neural networks (DNNs), generating intermediate features via convolution or linear layers occupied most of the execution time. Accordingly, extensive research has been done to reduce the computational burden of the convolution or linear layers. In recent mobile-friendly DNNs, however, the relative number of operations involved in processing these layers has significantly reduced. As a result, the proportion of the execution time of other layers, such as batch normalization layers, has increased. Thus, in this work, we conduct a detailed analysis of the batch normalization layer to efficiently reduce the runtime overhead in the batch normalization process. Backed up by the thorough analysis, we present an extremely efficient batch normalization, named LightNorm, and its associated hardware module. In more detail, we fuse three approximation techniques that are i) low bit-precision, ii) range batch normalization, and iii) block floating point. All these approximate techniques are carefully utilized not only to maintain the statistics of intermediate feature maps, but also to minimize the off-chip memory accesses. By using the proposed LightNorm hardware, we can achieve significant area and energy savings during the DNN training without hurting the training accuracy. This makes the proposed hardware a great candidate for the on-device training.
translated by 谷歌翻译
基于参考的图像超分辨率(REFSR)旨在利用辅助参考(REF)图像为超溶解的低分辨率(LR)图像。最近,RefSR引起了极大的关注,因为它提供了超越单图SR的替代方法。但是,解决REFSR问题有两个关键的挑战:(i)当它们显着不同时,很难匹配LR和Ref图像之间的对应关系; (ii)如何将相关纹理从参考图像转移以补偿LR图像的细节非常具有挑战性。为了解决RefSR的这些问题,本文提出了一个可变形的注意变压器,即DATSR,具有多个尺度,每个尺度由纹理特征编码器(TFE)模块组成,基于参考的可变形注意(RDA)模块和残差功能聚合(RFA)模块。具体而言,TFE首先提取图像转换(例如,亮度)不敏感的LR和REF图像,RDA可以利用多个相关纹理来补偿更多的LR功能信息,而RFA最终汇总了LR功能和相关纹理,以获得更愉快的宜人的质地结果。广泛的实验表明,我们的DATSR在定量和质量上实现了基准数据集上的最新性能。
translated by 谷歌翻译
我们为模仿学习提供了一个新的框架 - 将模仿视为政策和奖励之间的基于两人排名的游戏。在这个游戏中,奖励代理商学会了满足行为之间的成对性能排名,而政策代理人则学会最大程度地提高这种奖励。在模仿学习中,很难获得近乎最佳的专家数据,即使在无限数据的限制下,也不能像偏好一样对轨迹进行总订购。另一方面,仅从偏好中学习就具有挑战性,因为需要大量偏好来推断高维奖励功能,尽管偏好数据通常比专家演示更容易收集。经典的逆增强学习(IRL)的配方从专家演示中学习,但没有提供从离线偏好中纳入学习的机制,反之亦然。我们将提出的排名游戏框架实例化,并具有新颖的排名损失,从而使算法可以同时从专家演示和偏好中学习,从而获得两种方式的优势。我们的实验表明,所提出的方法可实现最新的样本效率,并可以从观察(LFO)设置中学习以前无法解决的任务。
translated by 谷歌翻译
GPT-3显示了培训的大规模语言模型(LMS)的卓越情调学习能力,培训数十亿规模数据。在这里,我们解决了GPT-3纸张报告的一些剩余问题,例如非英语LM,不同大小模型的性能,以及最近引入的迅速优化对上下文学习的效果。为实现这一目标,我们介绍了HyperClova,一个韩国VPT-3的韩国变体训练在一个以韩国为中心的560b标准的令牌。通过我们的韩国特定标记化,HyperClova与我们的培训配置增强,显示了韩国各种下游任务的最先进的上下游零射击和几秒钟学习表演。此外,我们展示了基于及时的学习的性能优势,并演示如何集成到迅速的工程管道中。然后,我们讨论了通过引入Hyperclova Studio,互动提示工程界面向ML的非专家提供AI原型设计能力来实现No Code AI范例的可能性。最后,我们展示了我们具有三个成功的内部应用程序的方法的潜力。
translated by 谷歌翻译